طراحی و پیاده سازی الگوریتم تطابق اسامی در زبان فارسی به منظور تشخیص رینفع واحذ لیال مومنی نسب momeninasab.leila@gmail.com دکتر نیما امیرشکاری nima.itpro@gmail.com استاد جالل ملکی jalal.maleki@liu.se پرفسور الرش اهرنبرگ lars.ahrenberg@liu.se سومین همایش ساالنه بانکداری الکترونیک و نظام های پرداخت conf.mbri.ac.ir/ebps3 کاربرد هروری بر الگوریتن های هوجود یک الگوریتن تطابق اساهی برای زبان فارسی پی دا ارزیابی نتیجه آینده کاری 2
کاربرد دس صهی ۀ تا کذاسی هالی تشای تشخیض تملة هذیشیت استثاط تا هشتشی ضذ پ لش یی ستث ت ذی اعتثاسی تشخیض ری فع احذ 3 هروری بر الگوریتن های هوجود تغییشات اساهی الگ سیتن ای تطاتك اساهی صتاى فاسسی 4
هروری بر الگوریتن های هوجود تغییرات اساهی دس اساهی یکساى اتفاق هی افتذ تغییشات شتاسی خطا ای اهالئی شتاس جایگضیي یس گشدا ی حش ف تی طذا تغییشات فیلذ اساهی ن اسص 5 هروری بر الگوریتن های هوجود تغییرات اساهی هختظش یسی لطع شذى تشجو اضاف یا حزف اجضاء استفاد اص عالئن 6
هروری بر الگوریتن های هوجود الگوریتن های تطابق اساهی آیا ایي د اسن ت یک شخض احذ تعلك داسد Mohamedamin و Mohamed Amin الگ سیتن ای تطاتك ط تی Soundex الگ سیتن ای تفا ت سشت ای Levenshtein الگ سیتن ای تش هث ای ت کي Q-gram 7 هروری بر الگوریتن های هوجود زبان فارسی الفثای صتاى فاسسی 33 حشف سیستن شتاسی Perso-Arbic اص چپ ت ساست اتظال حش ف دس شتاس 8
هروری بر الگوریتن های هوجود یک الگوریتن تطابق اساهی برای زبان فارسی Levenshtein Arabic Edit Distance Algorithm (AEDA) PEDA 9 پی دا ایي د اسن فاسسی چ ا ذاص تا ن شثا ت داس ذ ه سار هشاد 10
ع) غ) ج) ب) ئ) م) أ) ر) ا) أ) أ) ط) ک) آ) ا) ت) ک) ب) ج) ش) ج) ی) پ) ز) ر) د) ح) ص) ف) ت) پ) ث) ب) چ) پ) پ) پ) ب) ت) ت) ن) ن) ث) ث) ئ) پی دا سط ح شثا ت دس صتاى فاسسی شثا ت فشهی شثا ت ط تی شثا ت کی ت سدی ستۀ اطلی کذ پی دا 11 پی دا سطوح شباهت در زبان فارسی شباهت فرهی ی( ؤ) Form Similarity in Persian Alphabet(between origin letter forms) No. Similar Groups Similarity Index 1. - ك ) - إ( - إ( - آ( - إ( - آ( - ا( - ي ( (ه - ۀ ) )ة - ۀ ) )ة - ه ( 1 2. - ظ( - ض( - ز( - ذ( - خ( - ح( ث( - ) 0.8 ب) ب) چ) ك) - ئ( - گ( - غ( 3. - ق ) - ن( - ي( - ی( - ي( - ی( 0.54 4. - ژ ) - چ( - پ( 0.6 5. - ن ) - ژ( - ش( - ح( 0.4 6. - ف ) 0.27 7. - ث( - ت( - ث( - ت( - ل( 0.2 8. - ی( - ي( - ی( - ي( - ی( - ي( - خ( - ن( - خ( - ن( 0.14 - ث ) - ن ) ئ) - ت ) 9. - ه ) 0.07 10. Any other pair of Persian letters 0 12
ا) أ) أ) أ) ی) ک) ؤ) ث) ز( ح) ب) ؤ) ئ) ت) ج) م) ك) ة) پی دا سطوح شباهت در زبان فارسی شباهت صوتی Phonetic Similarity in Persian Alphabet(between origin letter forms) No. Similar Groups Similarity Index - ك( - ي( - ا( - ع( - ئ( - آ( - ) )ت - ط( 1 - ش - ص( -ذ-ض-ظ) - ه( )ح - ة( )ع - ا( )غ - ق( - ه( - د( - ع( )ة - ی ) 0.8 0.6 - پ( 0.4 )ث ش ص - ز ذ ض ظ( ژ) ف) ک) - ن( - گ( - چ( - ش( - ) - گ( 0.2 - ت ) 0.1 Any other combination of Persian letters 0 13 پی دا سطوح شباهت در زبان فارسی شباهت کی بوردی Sim kb a, b = 1 x a x b 2 + y a y b 2 ψ 14
پی دا هستۀ اصلی کد پی دا Levenshtein تثذیل اسن هثذا ت اسن همظذ تا کوتشیي ضی حذالل تعذاد عولیات تشای تثذیل جایگضی ی حزف اضاف 15 پی دا هستۀ اصلی کد پی دا Levenshtein یک هاتشیکس هی ساصد سطش ا ل ست ى ا ل هاتشیکس سا پش هی ک ذ 16
پی دا هستۀ اصلی کد پی دا Levenshtein سل ل ای هاتشیکس سا تا ت ج ت همادیش وسای ا پش هی ک ذ 17 پی دا هستۀ اصلی کد پی دا ضی ۀ عولیات حزف اضاف ضی ۀ عول جایگضی ی 18
پی دا هستۀ اصلی کد پی دا هثال ه سار هشاد = 88% 19 ارزیابی ا جام س سشی اص آصهایشات تایج تطاتك 20
ارزیابی انجام سه سری از آزهایشات ا لیي سشی Modified 1,000,000 records 1000 First Names Divided to 10 data sets of 100 records 1000 First Names A result data set includes 100,000 matches 21 ارزیابی انجام سه سری از آزهایشات سشی د م 1,000,000 records Divided to 10 data sets of 10 records Decoupled into 2 data sets of 100 records A result data set includes 1000 matches 22
ارزیابی انجام سه سری از آزهایشات پی دا تشای تعذاد هختلفی اص عولیات چگ عول هی ک ذ 100 matches which differ in just 1 edit 1,000,000 records 100 matches which differ in just 2 edits 100 matches which differ in just 3 edits 100 matches which differ in just 4 edits 23 ارزیابی نتایج تطابق ا لیي سشی PEDA Precision Recall f-measure DS01 0.8 0.9 0.85 DS02 0.77 0.95 0.85 DS03 0.89 0.95 0.92 DS04 0.81 0.97 0.88 DS05 0.73 0.96 0.83 DS06 0.79 0.95 0.86 DS07 0.79 0.99 0.88 DS08 0.79 0.96 0.87 DS09 0.75 0.95 0.84 DS10 0.7 0.95 0.81 f-measure mean 0.86 24
ارزیابی نتایج تطابق ا لیي سشی: همایس تا ل شتیي Levenshtein DS0 DS0 DS0 DS0 DS0 DS0 DS0 DS0 DS0 DS1 1 2 3 4 5 6 7 8 9 0 True positives 95% 100% 94% 99% 99% 96% 97% 96% 97% 98% False positives 5% 0% 6% 1% 1% 4% 3% 4% 3% 2% True 59% 65% 65% 74% 67% 65% 69% 68% 62% 67% negatives False negatives 41% 35% 35% 26% 33% 35% 31% 32% 38% 33% PEDA DS0 DS0 DS0 DS0 DS0 DS0 DS0 DS0 DS0 DS1 1 2 3 4 5 6 7 8 9 0 True positives 86% 78% 90% 81% 73% 79% 79% 21% 76% 70% False positives 14% 22% 10% 19% 27% 21% 21% 79% 24% 30% True 92% 91% 91% 96% 93% 92% 98% 94% 96% 93% negatives False negatives 8% 9% 9% 4% 7% 8% 2% 6% 4% 7% 25 ارزیابی نتایج تطابق د هیي سشی Precision Recall f-measure DS01 1 1 1 DS02 0.64 0.78 0.7 DS03 0.83 0.55 0.66 DS04 0.75 0.43 0.55 DS05 0.71 0.83 0.76 DS06 0.86 1 0.92 DS07 1 1 1 DS08 1 0.75 0.86 DS09 1 0.71 0.83 DS10 0.71 0.83 0.76 f-measure mean 0.80 26
ارزیابی نتایج تطابق س هیي سشی 1 edit 2 edits 3 edits 4 + edits True positives 99% 81% 69% 42% False positives 1% 19% 31% 58% 27 ارزیابی ا اع تغییشات اساهی سا دس داد ای تست آ سد این تایج سا تشای ا اع تغییشات اساهی تشسسی و دین s t Similarity ح ح پري پري 45% زري زىرا 68% سيد احمد احمد 70% نسيب آقا نسية 69% اقا شهساد شيساد 64% محجوبه مجح پو 76% زينب نه نه خانم زينة ن ن خا 68% فاطمه فاطي 64% 28
نتیجه پی دا تشای تغییشات شتاسی لطع شذى خ ب عول هی ک ذ ت طی هی ش د دس ک اس الگ سیتن ای دیگش استفاد ش د 29 آینده کاری ت سعۀ ل ا یي شثا ت شو ذ ساصی پی دا تشکیة تا پایگا داد ای ه اسد خاص )ها ذ اساهی اشخاص ششکت ا ام اه...( 30
با تشکر سومین همایش ساالنه بانکداری الکترونیک و نظام های پرداخت 16 و 17 دی ماه 1392 مرکز همایش های برج میالد conf.mbri.ac.ir/ebps3